{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 《Python数据挖掘方法及应用》PyDm\n",
    "### 【第6章 大数据分析基础应用】数据与练习6 \n",
    "#### **（请在#下面问题的空白处写出代码并输出结果）**\n",
    "---"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "6.1  互联网电影资料库(Internet Movie Database，IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDb的资料中包括影片的众多信息——演员、片长、内容简介、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。截至2012年2月24日，IMDb共收录2132383部作品资料及4530159名人物资料。你可以尝试爬取其中感兴趣的信息，例如，爬取2017年度最流行的100部故事片，网址：http://www.imdb.com/search/title? %20count= 100&release_date=2017, 2017&title_type=feature。请爬取以下信息：\n",
    "Rank：从1到100，代表排名；\n",
    "Title：故事片的标题；\n",
    "Description：电影内容简介；\n",
    "Runtime：电影时长；\n",
    "Genre：电影类型；\n",
    "Rating：IMDb提供的评级；\n",
    "Metascore：IMDb上该电影的评分；\n",
    "Votes：电影的好评度；\n",
    "Gross_Earning_in_Mil：电影总票房(百万)；\n",
    "Director：影片的总导演，如果有多位，则取第一个；\n",
    "Actor：影片的主演，如果有多位，则取第一个。\n",
    "另外，还可以尝试爬取不同地区即将上映(upcoming releases)的电影名。\n",
    "例如，尝试爬取中国的信息，网址：http://www.imdb.com/calendar?region= CN&ref_=rlm。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "6.2  豆瓣读书。豆瓣读书为豆瓣网的一个子栏目。豆瓣读书2005年上线，已成为国内信息最全、用户量最大且最为活跃的读书网站。它专注于为用户提供全面且精细化的读书服务，同时不断探索新的产品模式。到2012年，豆瓣读书每月有800万以上名来访用户，过亿访问次数。\n",
    "豆瓣用户每天都在对“读过”的书进行“很差”到“力荐”的评价，豆瓣根据每本书读过的人数以及该书所得的评价等综合数据，通过算法分析产生豆瓣图书Top250。请尝试将读书榜Top250爬取下来。\n",
    "网址：https://book.douban.com/top250?icn=index-book250-all。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "6.3  百度新闻。百度新闻是百度公司推出的中文新闻搜索平台，每天发布多条新闻，新闻源包括500多个权威网站，热点新闻由新闻源网站和媒体每天“民主投票”选出，不含任何人工编辑成分，真实反映每时每刻的新闻热点；百度新闻保留了自建立以来所有日期的新闻，从而能掌握整个新闻事件的发展脉络。\n",
    "尝试上百度新闻官网，爬取以“大数据”为关键词的全部新闻数据。\n",
    "网址：http://news.baidu.com/ns?word=大数据&tn=news&from=news&cl=2&rn= 20&ct=1。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "6.4  BOSS直聘。“BOSS直聘”诞生于2014年7月，是一款让“牛人”和未来老板直接线上交流的APP。用户可在APP上采用聊天的方式，与企业高管，甚至创始人一对一沟通，更快地获得工作机会。“BOSS直聘”为企业老板与职场“牛人”搭建起高效沟通、信息对等的公共平台。职场“牛人”可以跳过海投简历、一面、二面等冗长的应聘环节，直接与企业老板在线聊天、洽谈入职条件，提升找工作的效率。同时，企业老板也可采用类似微信聊天的在线互动方式，与求职者直接对话，展示自己和公司的诚意，精准定位职位最优人选，将招聘时长缩至最短。\n",
    "尝试登录BOSS直聘官网，爬取广州地区所有职业招聘的数据。\n",
    "网址：https://www.zhipin.com/c101280100/h_101280100/。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "6.5  中原地产。香港中原集团始创于1978年，集团发展至今已成为香港规模最大的房地产代理集团。为发展及壮大中原集团，香港中原于1990年首度涉足中国大陆市场，并于1992年成立合资公司，1998年成立独立运作的中原(中国)物业顾问有限公司。中原(中国)以为房地产公司提供专业化服务为依托，业务类型涉及房地产市场研究与分析、房地产前期顾问、房地产营销策划、广告设计、项目代理、物业管理、房产中介等。其业务范围还涉及投资移民、人事顾问、数据整合及软件开发等多个领域。\n",
    "尝试登录中原地产官网，爬取广州地区所有二手房房价的数据。\n",
    "网址：http://gz.centanet.com/ershoufang/。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
